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摘 要 : 为 将 稀疏 分 布 式 表征 理论 应 用 到 著者 姓名 消 岐 ， 了 解 其 在 解决 姓名 消 歧 问题 时 的 效果 ， o 
式 表征 的 英文 文献 著者 姓名 消 歧 方法 。 该 方法 选择 论文 摘要 文本 信息 作为 消 岐 特征， 将 其 生成 二 进 制 表示 的 SDR 码 。 
根据 待 消 歧 论文 的 SDR 与 同名 作者 的 论文 SDR 相似 度 对 比 来 实现 著者 姓名 消 歧 。 最 终 得 到 的 结果 为 准确 率 982196, 
召回 率 76.75%, 上 值 86.17%, 证 明 提 出 的 消 歧 方法 具有 较 好 的 效果 。 通 过 对 比 该 方法 与 利用 合 著者 特征 进行 消 歧 的 方 
法 ， 说 明 该 方法 能 够 较 好 地 解决 文献 著者 姓名 歧义 问题 。 此 外 ， 该 方法 还 可 将 作者 未 收录 在 作者 库 中 的 论文 识别 出 来 
并 将 其 指派 给 新 作者 ， 无 须 重 新 学 习 和 更 新 模型 。 
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Research on English author name disambiguation based on sparse distributed representation 


Zhai Xiaorui, Han Hongqi, Zhang Yunliang, Li Zhong 
(Key Laboratory of Rich-media Knowledge Organization & Service of Digital Publishing Content, Institute of Scientific & 
Technical Information of China, Beijing 100038, China) 


Abstract: In order to apply the Sparse Distributed Representation theory to the author name disambiguation, and to know the 
effect of the theory in solving the name disambiguation problem, this paper proposed a method based on Sparse Distributed 
Representation to disambiguate English author name. This paper selected summary as disambiguation feature and generated 
binary representation of SDRs. And then it constructed the similarity matrix based on the similarity comparison of the training 
set, the experiment is performed after the appropriate threshold set. The final accuracy is 98.2195, the recall is 76.75%, and the 
F-value is 86.1796. The result indicates that the proposed method has a good effect. By comparing the method proposed with the 
method based on co-authors, it can be concluded that the method proposed can better solve the ambiguity problem of author 
names. In addition, the method can also identify the papers whose authors are not included in the author database, and assign to 
new authors without relearning and updating the model. 
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解决 ， 如 网 页 人 物 搜索 评测 竞赛 (Web People Search Evaluation 
Campaign, WePS)、CLP2010(Chinese Language Processing 2010 
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一 定 程 度 上 损失 了 语义 信息 。 此 外 现 有 的 消 歧 方法 主要 利用 聚 
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筷 和 某 一 人 物 个 体 全 面 的 特征 ， 这 超出 了 要 指出 网 页 或 文 
的 范畴 , 以 及 分 类 、 聚 类 的 任务 要 求 中。 
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长 度 n 一 般 在 1024-65536, 其 中 “12 frio E 10 Æ 40 位 ， 
RIESTER EE 0.059628 2997. [8]. SDR 的 每 一 位 都 有 一 定 的 
语义 意义 ， 如 果 两 个 SDR 在 同一 位 置 均 为 1， 则 说 明 这 两 个 
SDR 共同 拥有 该 位 对 应 的 属性 [29。 

SDR 在 存储 时 ， 仅 存储 活跃 位 的 信息 即 可 ， 大 大 减少 了 对 
存储 空间 的 需求 。SDR 理论 中 使 用 重 膨 数 (overlap) 来 定义 两 
个 SDR 编码 的 相似 性 ， 即 是 指 两 个 向 量 在 相同 位 置 都 是 “1” 
的 个 数 。 当 重 肢 数 超过 某 个 闹 值 9 时 , 则 认为 这 两 个 SDR 时 匹 
配 (matching) HJ. ?4 n-1024, o-9 时 ， 两 个 SDR 向 量 的 错 
误 匹 配 概率 就 已 经 降 到 了 3.0365*10-22, 所 以 说 SDR 编码 的 鲁 
棒 性 很 高 ， 并 且 具 有 一 定 的 容错 能 力 ， 即 使 丢弃 或 移动 了 一 些 
位 ， 其 代表 的 语义 也 会 保持 不 变 [ 咱 。 

为 了 方便 研究 人 员 使 用 SDR, Cortical.io 公司 提供 了 名 为 
Retina 的 API， 实 现 了 基于 SDR 理论 的 语义 指纹 生成 ， 它 将 输 
入 的 文本 信息 通过 语义 折 县 方法 得 到 其 对 应 的 128*128 维 矩 阵 ， 
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的 论文 确定 不 属于 同一 作者 ， 为 1 时 表示 两 个 SDR 对 应 的 论 
文 确定 属于 同一 作者 。 
2.3 ”匹配 方案 
对 于 一 篇 待 消 歧 的 论文 p， 与 已 消 卜 的 一 个 同名 作者 a 的 
N 篇 论文 的 SDR 进行 比较 , 得 到 N 个 相似 性 比较 结果 , 即 Hi(x) 
CG=1，2，…，N)。 为 了 确定 p 是 否 为 作者 a 的 论文 ， 设 置 了 
相似 性 比较 阔 值 区 间 (525 62)，5 1 和 6565 的 取 值 需要 根据 实际 
情况 确定 。 确 定论 文 p 是 否 为 一 个 作者 a 的 论文 的 过 程 如 图 3 
所 示 ， 详 述 如 下 : 
a) 当 待 消 歧 论 文 p 与 己 消 歧 作 者 a 的 第 i 篇 论文 SDR 的 
比较 结果 Hi(x) 大 于 闵 值 62 时， 确定 论文 p 的 作者 是 a 。 虽 然 
p 与 作者 a 的 N 篇 论文 存在 N 次 SDR 比较 ， 但 这 种 情况 只 要 
出 现 一 次 ， 就 可 认定 论文 p 的 作者 是 a 。 
b) 当 全 部 N 次 SDR 比较 的 相似 度 HiCoO 小 于 阔 值 2 时 ， 


再 将 其 表示 为 向 量 的 形式 ， 即 16 384 位 的 SDR 码 ， 然 后 将 值 
73 *1" 的 位 对 应 的 索引 下 标 作为 返回 值 提 供给 用 户 , 用 户 可 依 
此 来 生成 对 应 的 SDR 码 。 


2 ”基于 SDR 的 英文 著者 姓名 消 卜 方 法 

本 文 提出 的 基于 SDR 的 英文 著者 姓名 消 歧 方 法 , 通过 比较 
一 篇 待 消 疏 论文 与 已 消 卜 论文 之 间 的 相似 性 来 判断 该 待 消 卜 文 
献 是 哪 一 位 同名 作者 的 论文 ， 从 而 将 待 消 层 论文 与 相应 的 人 物 
实体 相对 应 ， 实 现 将 同名 作者 的 论文 彼此 区 分 开 来 的 目的 。 提 


LH 


出 的 方法 由 SDR 生成 、SDR 比较 、 作 者 匹配 、 争 议 仲 裁 、 作 者 
指派 等 五 个 处 理 过 程 组 成 ， 如 图 1 所 示 。 
争议 仲裁 
LER SDR SDR 作者 | 作者 
文献 一 生成 上 下 em [9 vene || 指派 


图 1 基于 SDR 的 英文 著者 姓名 消 歧 方法 流程 
2.1 特征 选择 及 SDR 生成 

文献 数据 库 中 检索 到 的 文献 题 录 信 息 一 般 包 括 题名 \ 作 者 、 
合 著者 、 作 者 机 构 、 期 刊 名 、 摘 要 、 关 键 词 等 信息 PC4， 其 中 
要 为 文本 信息 ， 且 高 度 概括 了 文章 内 容 ， 一 定 程度 上 代表 J 
者 的 思想 ， 是 表征 作者 信息 的 重要 特征 ， 故 本 实验 选择 题 录 
息 中 的 摘要 信息 作为 消 上 下 所 用 的 特征 。 在 获得 摘要 信息 后 ， 利 
用 SDR 生成 算法 将 摘要 文本 信息 生成 SDR 码 ， 作 为 消 歧 使 用 
的 语义 指纹 。 具 体 过 程 如 图 2 Wr. 

(sos) 


Hb To mR 


文献 | SFE 


| | RE) 


A SDR 生成 算法 


图 2 文献 SDR 的 生成 


2.2 SDR 比较 
在 获取 一 篇 论文 摘要 信息 且 生 成 其 SDR 后 ,本 文 将 其 SDR 
与 现 有 同名 作者 的 全 部 论文 的 SDR 进行 相似 度 比较 ,两 个 SDR 
相似 度 的 计算 采用 cortical.io 提供 的 方法 R71, 比较 结果 记 为 H(x)。 


这 时 存在 两 种 情况 ， 一 种 是 存在 Hi(x)， 使 得 5 1<Hi(x)< 6，2， 这 


种 情况 下 认为 论文 p 的 作者 可 能 是 a, 男 一 种 是 任 一 Hi(x) 均 小 
于 51， 这 种 情况 下 认为 论文 p 的 作者 不 可 能 是 a 。 统 计 Hx) 


的 值 位 于 区 间 ( 61, 6 >) 的 情况 出 现 的 数量 ， 即 计算 Hi) TECÓ i, 
8 2) 内 的 个 数 ， 记 为 n， 若 n/N>h， 则 文献 p 的 作者 为 a 。h 是 
一 个 阔 值 参数 ， 需 要 根据 实际 情况 确定 。 


N 次 比较 结果 
Hi (x) 


Hi (x) 位 于 (61, 6 2) 
之 间 的 个 数 n 


Hi(x)>651 
学 
是 


A 
[zi 


m 


Pp 的 作者 为 a 


——7| Pp 的 作者 不 为 a 


K 
图 3 


匹配 方案 


2.4 指派 方案 
论文 p 在 经 过 匹配 后 ， 设 其 与 m 位 作者 相 匹配 ， 则 存在 如 
下 三 种 可 能 结果 : 
a) m=0， 即 文献 p 未 能 与 已 有 作者 匹配 ， 则 将 文献 p 指派 
给 一 名 新 作者 ; 
b) m=1， 即 文献 p 只 与 一 位 作者 匹配 ， 则 将 文献 p 指派 给 
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该 作者 ; " x : 
y ! precision = — X Precison, 
c) m>1， 即 文献 p 同时 与 多 位 作者 匹配 ， 此 时 ， 可 由 仲裁 N 53 
程序 判定 文献 p 指派 给 哪 一 位 作者 。 


recall = LS Recall, 
不 失 一 般 性 ， 假 设 文 献 p 同时 与 作者 ai 和 作者 a 2 匹配， NA 


分 别 计算 文献 p 与 两 位 作者 所 有 文献 的 相似 性 比较 结果 的 平均 整体 消 卜 效果 的 了 值 的 公式 如 下 : 


H(a H(a d p E RAS , isi 
ÈH (a) > ÈH (a) ， 则 将 该 文献 指派 给 作者 a 1， 否 则 ee 2 x Precision x Recall 
N, N,, Precision + Recall 


值 ， 若 


就 指派 给 作者 a 2〈 见 图 4)。 对 于 存在 多 于 两 个 以 上 的 指派 , 则 
取 相 似 性 比较 结果 的 平均 值 最 大 的 作者 作为 指派 对 象 。 


3 ”基于 SDR 的 英文 著者 姓名 消 歧 实 验 


3.1 ”数据 集 构建 

为 了 验证 提出 的 方法 的 效果 ， 利 用 ResearchGate 学 术 社 交 
网 络 、 通 过 手工 方式 构建 了 实验 数据 集 。 选 择 了 四 个 具有 较 高 
歧义 性 的 名 字 进 行 数据 集 的 构建 ， 分 别 为 JHuang、L Stevens. 
TJoe, J. Baker， 其 中 一 个 为 中 文 著者 的 英文 姓名 ， 三 个 为 外 国 


文献 p 分 配 的 
作者 数 


指派 给 新 作者 指派 给 该 作者 
是 人 姓名 。 在 对 获取 的 作者 论文 信息 进行 初步 分 析 后 ， 发 现 其 中 
指派 给 作者 a。 指派 给 作者 a 部 分 文献 数据 缺少 摘要 信息 ,所 以 将 这 些 数 据 从 数据 集中 剔除 ， 
最 后 的 数据 集 包含 19 位 作者 的 88 篇 文献 。 将 数据 集 分 为 两 部 
q» 分 ， 分 别 归 入 数据 集 ! 和 数据 集 2， 其 中 数据 集 1 中 包含 17 位 
图 4 指派 方案 作者 47 篇 文献 ， 数 据 集 2 中 包含 18 位 作者 41 篇 文献 。 再 从 
2.5 评价 指标 数据 集 1 和 数据 集 2 分 别 抽取 部 分 数据 组 建 训练 集 ， 标 记 为 训 
为 评价 基于 SDR 的 姓名 消 歧 方法 的 有 效 性 , 本 文采 用 了 练 集 1 D1) 与 训练 集 2 (D2)，D1 中 共计 7 位 作者 23 篇 文 
中 国 中 文 信息 学 会 2? (CIPS Chinese Information Processing 献 ，D2 中 共计 7 位 作者 19 篇 文献 。 训 练 集 1 和 训练 集 2 被 用 


m 


Society ofChina) 与 国际 计算 语言 学 协会 中 文 处 理 专业 兴趣 组 ?3 ”来 估计 阔 值 ， 即 61、6 和 h。 数 据 集 1 和 数据 集 2 被 用 来 进行 


(SIGHAN) 于 2012 年 主办 的 中 文 处 理 国际 会 议 〈CLP-2012) ”实验 ， 以 测试 本 文 提 出 的 基于 SDR 的 姓名 消 歧 方法 的 效果 。 
rp fi Fg T EE Gf 38 C precision, A E% (recall) K F 1H CF-measure) 为 了 实验 上 的 方便 ， 利 用 Cortical.io 公司 的 Rentina API 为 
评价 指标 。 每 一 篇 论文 的 摘要 文本 生成 了 其 SDR 的 表示 形式 。Rentina API 


其 中 ， 准 确 率 是 指 识别 出 归属 为 作者 a 的 文献 中 实际 为 作者 a 无 须 对 文本 信息 进行 分 词 及 停 用 词 处 理 ， 但 实际 文献 中 存在 的 
的 文献 所 占 的 比率 ， 召 回 率 是 指 实际 为 作者 a 的 文献 中 识别 出 “一 些 特殊 字符 ， 或 者 部 分 非 英语 国家 的 作者 在 撰写 论文 时 引入 
来 的 文献 所 占 的 比率 。 两 者 的 取 值 在 0 到 1 之 间 ， 越 接近 1， 的 非 英 文 状态 下 的 符号 会 对 SDR 结果 产生 影响 , 因此 还 需要 对 
效果 越 好 。 但 由 于 两 者 在 实际 中 常常 是 相互 影响 的 ， 提 高 一 个 ”摘要 文本 进行 适当 的 规范 化 处 理 。 图 5 是 左边 为 Rentina API 返 
指标 会 带 来 另 一 个 指标 的 降低 ， 因 此 需要 采用 下 值 来 综合 反映 可 的 数字 序列 ， 每 个 数字 代表 了 SDR 向 量 中 值 为 “1” 的 索引 


整体 的 指标 。 标 。 图 6 是 依 此 生成 的 实际 SDR 码 。 
如 果 把 姓名 消 歧 结果 看 做 是 徐 ， 每 一 个 簇 是 同一 个 作者 的 。” ”3.2 Bü 
结果 集合 ， 则 每 一 个 艇 的 准确 率 和 召回 率 计 算 公式 如 下 : 将 D1 5 D2 中 的 同名 作者 的 文献 SDR 码 进行 一 一 对 比 ， 
Precision - SOR 得 到 相似 性 结果 和 矩阵。 比较 分 析 同 一 个 作者 的 任意 两 篇 文献 的 
S 相似 性 比较 结果 ， 与 不 同 作 者 的 任意 两 篇 的 相似 性 比较 结果 。 
Recall - ROSI 如 图 7 所 示 。 粗 线 框 内 的 为 同一 作者 的 两 篇 文献 之 间 的 相似 性 
| 0 R 比较 结果 ， 剩 下 的 为 不 同 作者 的 任意 两 篇 文献 的 相似 性 比较 结 
其 中 :R 表示 人 工 消 歧 的 结果 集合 ，RiER 表示 人 工 消 歧 的 结果 R 
f rp t i. S 表示 利用 消 歧 方 法 消 歧 的 结果 集合 ，SiES 分 析 结 果 可 知 ， 归 属于 同一 作者 的 任意 两 篇 文献 的 比较 结 
表示 利用 消 歧 方 法 消 歧 的 结果 集合 中 的 某 一 徐 。 两 个 集合 的 大 果 在 (0.1522，0.5833) 间 ， 主 要 集中 在 (0.42，0.52) 间 ， 归属 于 不 
小 分 别 表示 为 |Ri、|Sil。 同 作 者 的 任意 两 篇 文献 的 比较 结果 在 (0.1657,0.4919) 间 , EHER 
在 得 到 每 一 簇 的 precisioni 和 recalli 后 ,将 他 们 的 平均 值 作 ”中 在 (0.29,0.44) 间 ,如 图 8 所 示 。 
为 整体 消 歧 效果 的 准确 率 和 召回 率 ， 其 中 N 代表 艇 数 。 AE, 将 阔 值 的 选择 区 间 设 定 在 (0.42, 0.52) 间 ，5 ! W 0.42, 


? http://www.cipsc.org.cn/ 3 http://sighan.cs.uchicago.edu 
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为 了 判断 最 佳 的 参数 8 和 h， 对 相似 性 比较 结果 和 矩阵 进一步 分 。 3.3 基于 SDR 的 消 歧 实 验 结果 

Wr. 使 62 取 值 从 0.42 开始 ， 以 0.01 为 步 长 增加 ， 同 时 分 别 根据 提出 的 实验 方案 ， 将 数据 集 1 和 2 中 同名 作者 的 任意 
取 20%、30%、40%， 观察 不 同 组 合 下 得 到 的 查 全 率 、 召 回 率 及 ”两 篇 文献 SDR 码 进 行 比较 , 得 到 相似 性 比较 结果 矩阵, 再 利用 
F 值 曲线 , 找到 消 歧 效果 最 好 的 参数 组 合 。 曲线 图 如 图 9 所 示 ， 得 到 的 阔 值 ， 即 5 ;=0.42， 8 ;=0.50，h=20%， 进 行 姓名 消 歧 实 
最 佳 消 歧 效果 对 应 的 冰 值 组 合 为 8 :为 0.42, 8279 0.50, h 为 o 


20%. Æ H(x)>0.50, 则 将 该 文献 分 配给 该 作者 ; 若 0.42<H(x)<0.50， 
[16, 18, 19, 27, 30, 34, 61, 70, 71, 75, 76, 77,1 则 计算 HCoO 位 于 (0.42，0.50) 内 的 百分比 ， 若 高 于 20%， 则 与 对 
458, 551, 557, 563, 564, 641, 687, 703, 722, . S 354g ES M Sr db dA LA. 
1332, 1350, 1397, 1400, 1402, 1409, 1438, 1 应 作者 相 匹 配 。 若 仅 与 一 名 作者 相 匹配 ， 则 将 该 文献 指派 给 作 
2031, 2059, 2060, 2116, 2118, 2156, 2158, 2 者 ; 若 同 时 与 多 名 作者 相 匹 配 ， 则 比较 其 H(x) 的 平均 值 ， 将 文 


2640, 2678, 2706, 2719, 2782, 2784, 2818, 2. 


E Je LA SEL Ma MEER UT SIS . ge 
ux quc MUERE uU AE 献 最 终 指派 给 平均 值 高 的 对 应 的 作者 ， 若 未 能 与 已 有 作者 相 匹 


3976, 3978, 4068, 4091, 4092, 4034, 4095, 4 配 ， 则 将 该 文献 指派 给 新 作者 。 

4478, 4479, 4489, 4513, 4578, 4624, 4626, 4 KP ll . : 

5421, 5471, 5472, 5478, 5482, 5487, 5523, 5 实验 最 终 得 到 的 准确 率 为 98.21%,， 召回 率 为 76.75%, F 值 

6777, 6848, 6905, 7233, 7338, 7427, 7465, 7 3H 86.17%. 

图 5 ” API 返回 的 数字 序列 3.4 与 基于 合 著 者 特征 的 消 歧 实验 对 比 

|o. 0,0,0,0,0,0,0,0,0,0, 0, 0, 在 文献 的 题 录 数 据 中 ， 除 了 本 文采 用 的 摘要 文本 信息 外 ， 
O, 0, O, 1, O, 1, 1, O, O, O, 0, 0, O, 还 有 一 些 特征 也 被 广泛 地 用 于 姓名 消 歧 实验 中 , 如 合 著 者 特征 、 
PEREPERE 作者 机 构 等 。 根 据 张 雄 等 人 的 研究 四， 合 著者 特征 消 歧 达 到 了 
, 0, O, O, O, O, O, 0, 0, 0, 0, 0, 0, — dx T 和 征 进行 消 歧 实 验 ， 将 其 结 
0000000001000 较 好 的 效果 。 故 选择 了 合 著者 特征 进行 消 歧 实 验 ， 将 其 结果 作 
0000011000111 为 对 比 ， 来 评价 基于 SDR 的 姓名 消 歧 效果 。 
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 基于 合 著 者 特征 的 姓名 消 歧 实 验 中 ， 首 先 人 工 对 合 著 者 姓 
0, 0, 0, 0, 0, 0, 0, 0,0] 名 进行 规范 化 处 理 ， 避 免 合 著者 姓名 的 歧义 问题 对 实验 结果 造 


成 影响 ， 然 后 利用 字符 串 匹 配 的 方法 进行 消 歧 。 若 两 篇 同名 作 
者 的 论文 中 至 少 存在 同一 个 合 著者 ， 则 认为 这 两 篇 文献 的 作者 
为 同一 人 。 
经 过 实验 ， 得 到 的 准确 率 为 98.32%， 召 回 率 为 73.68%,， 下 
值 为 84.24%。 
图 7 相似 性 比较 结果 和 矩阵 样 例 10 展示 了 本 文 提 出 的 方法 与 合 著者 特征 方法 的 对 比 ， 
两 者 在 准确 率 上 差别 不 大 ， 合 著者 特征 高 一 点 ， 但 召回 率 上 本 
文 方法 有 较 明显 的 优势 , 从 而 在 F 值 对 比 上 也 取得 较 好 的 优势 。 
本 实验 所 用 数据 集中 独 著 论文 数量 较 少 ， 使 得 合 著者 特征 方法 
取得 了 较 好 的 准确 率 ， 如 果 存 在 较 大 比例 的 独 著 论 文 ， 则 合 著 
者 特征 方法 的 准确 率 可 能 会 大 幅 下 降 。 
对 于 作者 未 收录 在 数据 集 1 中 的 论文 ， 合 著者 特征 方法 无 


图 6 生成 的 SDR 样 


分 组 序号 2-1 22 23 24 241 


相似 性 比较 结果 分 布 


1 4 7 1013 1619 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 法 对 其 进行 消 歧 ， 而 本 文 提出 的 方法 可 将 H 识别 出 来 指派 给 
新 作者 。 但 对 于 存在 合 著 关系 的 同名 作者 ， 两 种 消 歧 方法 均 失 
图 8 相似 性 比较 结果 分 布 效 。 
一 一 准确 率 一 一 召回 率 一 一 5 值 100.00% 98.2 2% 
100.0% 90.00% 2 86.17% 
xpi 76.759 
: 80.0096 < 
94.00% % 
92.00% 70.00% 
90.00% 
28.00% 60.00% 
86.00% 
24.0% 50.00% 
a 40.00% 
Ep 30.0096 
Pino 20.0096 
inis 10.00% 
66.00% 0.00% 
64.00% 
62.00% 准确 率 召回 率 F 值 
60.0096. ~ I 
OO OA Å 哩 基 于 SDR 的 消 歧 方 法 — 日 基于 合 著者 特征 的 消 层 方法 
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文献 著者 姓名 消 歧 是 科研 成 果 评 价 、 合 著者 社会 网 络 构 建 、 
知识 服务 系统 构建 等 问题 的 基础 性 研究 。 本 文 提出 的 基于 稀 琉 
分 布 式 表征 的 英文 文献 著者 姓名 消 歧 方 法 ， 选 择 摘 要 信息 作为 
KSE, IF] SDR 生成 算法 将 其 生成 16384 位 SDR 码 ， 通 
过 SDR 码 的 相似 性 比较 得 到 比较 结果 , 在 确定 阔 值 参数 后 , 将 
满足 条 件 的 论文 指派 给 相应 的 作者 。 最 终 得 到 的 实验 结果 为 准 
确 率 98.21%, AEX 76.75%，F 86.17%, WERI H 
表征 可 有 效用 于 姓名 消 歧 。 本 文 提 出 的 方法 可 有 效 识 别 出 作 者 
未 收录 在 作者 库 中 的 论文 ， 并 将 其 指派 给 新 作者 。 
虽然 本 研究 在 构建 的 实验 数据 集 上 取得 了 较 好 的 效果 ， 初 
步 验证 了 基于 SDR 理论 进行 著者 姓名 消 歧 的 可 行 性 和 有 效 性 ， 
但 仍然 存在 一 些 不 足 之 处 。 存 在 的 主要 问题 有 两 个 ， 第 一 个 是 
实验 使 用 的 数据 集 规模 小 ， 无 法 涵盖 实际 中 文献 著者 的 多 种 情 
况 ， 可 能 缺乏 全 面 性 及 代表 性 ， 第 二 个 是 消 歧 过 程 中 将 部 分 作 
者 指派 为 新 作者 ， 但 未 将 新 发 现 作者 同步 更 新 至 已 消 歧 数据 库 
中 ， 虽 然 在 本 文 的 实验 这 种 不 及 时 更 新 未 造成 大 的 影响 ， 但 在 
大 规模 数据 实验 中 可 能 出 现 归 类 为 新 作者 中 的 部 分 作者 实际 中 
为 同一 人 物 实体 的 情况 ， 从 而 对 消 歧 效果 产生 明显 的 影响 。 

本 文采 用 的 方法 是 付 媛 论文 所 方法 的 改进 版 本 ， 总 体 思路 
上 相同 ， 主 要 区 别 如 下 : a) 本 文 方法 与 付 媛 方法 中 语义 指纹 的 
生成 方式 不 同 。 付 媛 的 方法 中 ， 选 择 哈 希 函数 将 论文 文本 中 的 
词汇 生成 哈 希 值 , 通过 Simhash 算法 生成 论文 文本 的 语义 指纹 ; 
本 文 方法 中 , 词汇 的 SDR 是 基于 大 规模 语 料 学 习 生 成 的 , 论文 
文本 的 SDR 指纹 基于 词汇 的 SDR 生成 ; b) 指纹 的 匹配 方案 不 
同 。 付 媛 论文 实验 中 设置 了 一 个 5 和 h 作为 闵 值 ， 将 指纹 比较 
结果 中 大 于 8 的 结果 所 占 比例 超过 h 的 认定 为 同一 作者 ;本文 
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认定 其 为 同一 作者 ， 若 比较 结果 在 6 1 和 6562 之 间 ， 则 比较 所 占 
比例 ,超过 h 的 认定 为 同一 作者 ;c) 姓 名 消 歧 的 语言 环境 不 同 ， 
付 媛 的 论文 对 中 文 著者 姓名 进行 消 歧 ， 本 文 对 英文 著者 姓名 进 
行 消 卜 。 

在 未 来 的 研究 工作 中 ， 将 对 以 下 几 个 方面 进行 深入 研究 : 
a) 将 合 著者 特征 、 机 构 特 征 等 和 SDR 融合 消 歧 ， 以 提升 该 方法 
在 姓名 消 歧 上 的 效果 ， 促 进 其 在 实际 系统 中 的 应 用 ; bE RE 
选择 过 程 中 ， 考 虑 应 用 深度 学 习 等 算法 ， 优 化 参数 设置 ， 以 达 
到 更 为 理想 的 消 歧 效果 ; c) 目 前 关于 SDR 生成 方法 的 核心 代码 
尚未 公布 ,所 以 只 能 通过 Numenta 战略 合作 伙伴 一 一 Cortical.io 
公司 提供 的 名 为 Retina 的 API, 获取 英文 文本 的 SDR 表示 。 今 
后 将 构建 中 文 语料库 , 研究 基于 中 文 语料库 的 中 文 词汇 SDR 生 
成 ， 以 实现 基于 中 文 文献 的 著者 姓名 消 歧 。 
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